人工智能语音技术
分享自 洪青阳(博士 厦门大学副教授 天聪智能创始人).
人工智能技术及行业应用
- 应用层
- 安防
- 金融
- 自动驾驶
- 医疗
- …
- 技术层(通用技术 - 算法 - 底层架构)
- 图像识别 - 机器学习 - Tensor Flow
- 语音识别 - 深度学习 - Kaldi/CNTK
- 自然语言理解 - 增强学习 - Caffe
- 知识图谱 - 对抗学习 - Torch
- …
- 基础层(计算能力 - 数据质量)
- 大数据 - 图像数据
- GPU - 语音数据
- 云计算 - 交通数据
- 神经网络芯片 - 医疗数据
- …
人工智能技术趋势
感知计算
视觉、语音识别率超过97%,感知层基础技术基本具备。
认知计算
自然语言理解是人工智能现阶段需要重点突破的技术,目前在客服和机器人领域有较好的应用。
无监督学习
现有深度学习严重依赖标注数据,一旦无监督学习突破,人工智能必将进入新的阶段。
人工智能应用趋势
机器感知(视觉、语音)
应用在安防、金融、智能家居、机器人,在5年内普及。
机器感知(自然语言理解)
未来较大的应用会在医疗、证券、法律等领域,预计在5~10年内普及。
人机结合
无论是工业机器人还是服务机器人,人机结合将是未来一段时间的常态。
合作项目
- 华为P20/Mate20手机(语音识别 + 声纹识别) 小艺
- 语音识别框架
TensorFlow - Lite 在移动端的解决方案技术分解及最新进展
分享自 王玉成(谷歌技术专家 物联网GDE)
- TensorFlow Lite 支持一系列核心运算符,包括量化和浮点运算,针对移动平台进行了调整。结合了预融合激活和偏置,以进一步提高性能和量化精度。此外,TensorFlow Lite还支持在模型中使用自定义操作。
- TensorFlow Lite基于FlatBuffers定义了一种新的模型文件格式。
- FlatBuffers是一个开源、高效的跨平台序列化库。它类似于ProtoBuffer,但主要区别在于FlatBuffers在访问数据之前不需要对辅助表示进行解析/解包过程,通常与每个对象的内存分配相结合。此外,FlatBuffers的代码占用空间比ProtoBuffer小一个数量级。
- TensorFlow Lite拥有一个新的移动优化解释器,其主要目标是保持应用程序的精简和快速。解释器使用静态图形排序和自定义(动态性小)内存分配器来确保最小的负载、初始化和执行延迟
- 尺寸较小: 当所有支持的操作符链接时,TensorFlow Lite小于300KB,当仅适用支持InceptionV3和Mobilenet所需的操作符时,小于200KB。
- TensorFlow Lite提供了一个利用硬件加速的接口(如果在设备上可用)。它通过Android神经网络API实现,可在Android8.1(API级别27)及更高版本上使用。
使用神经网络理解视频信息
分享自 郑炜(谷歌技术专家 机器学习GDE 来自厦门ABB中压技术中心)
机器视觉: 理解图片、视频内容
- 机器视觉可以自动化依赖人类视力的工作
- 机器视觉将原始图片处理成数字信息,在数字信息的基础上进行其他任务:
- 图片分类
- 人脸识别
- 3D场景重建
- 物体跟踪
- 自动/辅助驾驶
- …
- 定义特征是机器视觉中很重要的一个步骤
机器视觉: 定义特征
- 特征是机器视觉的重要基础
- 传统方法是人为定义,例如拐角、边缘、颜色、亮度等等简单的特征
- 人为定义的特征局限性很大
- 基于特征,我们可以进行很多操作:对比图像相似度、寻找物体、3D空间重建、镜头畸变调整…
通过训练学习数据中的规律
总结
- 深度学习依赖大数据,学习复杂的知识
- 卷积神经网络可高效处理视频、音频信息
- 各类神经网络结构能有效分类视频